Average word length | # of sentences | Source |
---|---|---|
8.31 | 13 | http://bg.wikipedia.org/wiki/Джули_Кристи |
8.45 | 14 | http://bg.wikipedia.org/wiki/Уич_(тв_сериал) |
8.51 | 11 | http://bg.wikipedia.org/wiki/Янко_Динков |
8.54 | 11 | http://bg.wikipedia.org/wiki/Брус_Риъх |
8.54 | 11 | http://bg.wikipedia.org/wiki/Алберт_Шестерньов |
8.64 | 15 | http://bg.wikipedia.org/wiki/Биляна_Петринска |
8.66 | 14 | http://bg.wikipedia.org/wiki/Списък_на_видни_дейци_на_гръцката_въоръжена_пропаганда_в_Македония |
8.78 | 14 | http://bg.wikipedia.org/wiki/Дио |
8.80 | 10 | http://bg.wikipedia.org/wiki/Милош_Зяпков |
8.83 | 17 | http://bg.wikipedia.org/wiki/Джеси |
8.86 | 21 | http://bg.wikipedia.org/wiki/Куон_Юри |
8.86 | 18 | http://bg.wikipedia.org/wiki/Филип_Трифонов |
8.88 | 11 | http://bg.wikipedia.org/wiki/Ник_Парк |
8.89 | 12 | http://bg.wikipedia.org/wiki/Народна_младеж |
8.91 | 11 | http://bg.wikipedia.org/wiki/Фируз_Демир |
8.92 | 16 | http://bg.wikipedia.org/wiki/Синистър_Гейтс |
8.94 | 19 | http://bg.wikipedia.org/wiki/Граф_на_Блоа |
8.95 | 17 | http://bg.wikipedia.org/wiki/Шон_Пол |
8.96 | 15 | http://bg.wikipedia.org/wiki/Иван_Иванов_(актьор) |
8.96 | 13 | http://bg.wikipedia.org/wiki/Черил_Коул |
8.97 | 25 | http://bg.wikipedia.org/wiki/Мира_Каланова |
8.97 | 13 | http://bg.wikipedia.org/wiki/Питър_Крауч |
8.99 | 12 | http://bg.wikipedia.org/wiki/Георги_Соколов |
8.99 | 12 | http://bg.wikipedia.org/wiki/Латински_съкращения |
9.00 | 10 | http://bg.wikipedia.org/wiki/Black_Roses |
9.02 | 21 | http://bg.wikipedia.org/wiki/Симпъл_План |
9.02 | 13 | http://bg.wikipedia.org/wiki/Георги_Аспарухов |
9.02 | 12 | http://bg.wikipedia.org/wiki/Сенет |
9.03 | 13 | http://bg.wikipedia.org/wiki/Гизем_Караджа |
9.03 | 12 | http://bg.wikipedia.org/wiki/Кортни_Лав |
Average word length | # of sentences | Source |
---|---|---|
15.55 | 11 | http://bg.wikipedia.org/wiki/Библиотечни_каталози |
15.10 | 14 | http://bg.wikipedia.org/wiki/Правосъзнание |
15.01 | 10 | http://bg.wikipedia.org/wiki/Държавна_политехника |
14.99 | 19 | http://bg.wikipedia.org/wiki/Топлотехнически_покрития |
14.94 | 10 | http://bg.wikipedia.org/wiki/Фундаментализъм |
14.93 | 10 | http://bg.wikipedia.org/wiki/Карл_Роджърс |
14.79 | 10 | http://bg.wikipedia.org/wiki/Икономика_на_Южна_Корея |
14.72 | 12 | http://bg.wikipedia.org/wiki/Радиоелектроника |
14.68 | 12 | http://bg.wikipedia.org/wiki/Георги_Балтаков |
14.67 | 10 | http://bg.wikipedia.org/wiki/Организация |
14.62 | 16 | http://bg.wikipedia.org/wiki/Борис_Паригин |
14.57 | 27 | http://bg.wikipedia.org/wiki/Томография |
14.57 | 23 | http://bg.wikipedia.org/wiki/Допамин |
14.56 | 15 | http://bg.wikipedia.org/wiki/Вашингтонски_консенсус |
14.55 | 16 | http://bg.wikipedia.org/wiki/Хетероциклично_съединение |
14.54 | 14 | http://bg.wikipedia.org/wiki/Философия |
14.49 | 23 | http://bg.wikipedia.org/wiki/Национална_разузнавателна_служба_(Гърция) |
14.48 | 10 | http://bg.wikipedia.org/wiki/Българско_републиканско_самоуправление |
14.47 | 13 | http://bg.wikipedia.org/wiki/Анархо-комунизъм |
14.47 | 10 | http://bg.wikipedia.org/wiki/Българска_старостилна_православна_църква |
14.41 | 15 | http://bg.wikipedia.org/wiki/Градоустройство |
14.40 | 11 | http://bg.wikipedia.org/wiki/Свободно_катерене |
14.39 | 13 | http://bg.wikipedia.org/wiki/Акумулатор |
14.39 | 11 | http://bg.wikipedia.org/wiki/Заднонебна_съгласна |
14.38 | 11 | http://bg.wikipedia.org/wiki/Урология |
14.36 | 28 | http://bg.wikipedia.org/wiki/Презастраховане |
14.36 | 11 | http://bg.wikipedia.org/wiki/Архитектура |
14.34 | 11 | http://bg.wikipedia.org/wiki/Функционализъм |
14.32 | 10 | http://bg.wikipedia.org/wiki/Потребителско_поведение |
14.28 | 38 | http://bg.wikipedia.org/wiki/Метаматериал |
The problem addressed in this subsection (as well as the results) is similar to 6.4.1.1, but now we focus on average word length instead of average sentence length.
Measuring average word length strongly depends on tokenization. The usual tokenization might split the string “28.06.2005” into five parts “28 . 06 . 2005” of average length two. To avoid this, the number of words is counted as 1 + (number of blanks in the sentence).
select round(avg(length(sentence) / (1+ length(sentence) - length(replace(sentence," ","")))),2) as le, count(sentence) as cnt, source from sentences s, inv_so i, sources so where s.s_id=i.s_id and i.so_id=so.so_id group by source having cnt>=10 order by le limit 30;
6.4.2.2 Average logarithmic word rank for different sources
6.4.2.3 Sources consisting of many / few words with frequency 1
6.4.2.4 Sources with low / high average word length of rare words